Razonamiento o memorización: exploración de diversidad dirigida en LLM
DiRL: marco de RL que distingue razonamiento de memorización en LLMs, mejorando exploración y resultados en benchmarks.
DiRL: marco de RL que distingue razonamiento de memorización en LLMs, mejorando exploración y resultados en benchmarks.